基於深層類神經網路及表示學習技術之文件可讀性分類(Classification of Text Readability Based on Deep Neural Network and Representation Learning Techniques)[In Chinese]

نویسندگان

  • Hou-Chiang Tseng
  • Hsiao-Tsung Hung
  • Yao-Ting Sung
  • Berlin Chen
چکیده

The development of the internet has facilitated the flow of information. However, this explosive growth of information has led to fundamental importance being overlooked: Reading material can be understood. Research on readability formulas aims to predict, to a reasonable extent, the degree to which a text can be understood. It does so mainly by analyzing and translating the information within a text into readability features, which are used to train a readability model, in order to automatically predict the readability of a given text. In recent years, the development of deep neural networks, applied to speech recognition, image processing and natural language processing has improved significantly on the performance. Therefore, this paper proposes a readability model built with deep neural network and word vector representation, and which is capable of analyzing cross-domain texts, in accordance with the diverse topics of text contents. The authors aim to make the readability model capable of analyzing text readability with more accurate, as well as possess domain generalization capacity. 關鍵詞:可讀性,詞向量,分類,深層類神經網路,支向量機

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

透過語音特徵建構基於堆疊稀疏自編碼器演算法之婚姻治療中夫妻互動行為量表自動化評分系統(Automating Behavior Coding for Distressed Couples Interactions Based on Stacked Sparse Autoencoder Framework using Speech-acoustic Features)[In Chinese]

人與人之間交談互動,常透過語言傳達彼此的想法,並在這交談過程中得知雙方的行為 反應。利 用人為觀察來分析雙方行為反應,這種人為分析方式最早常應用在心理學和精神醫學方面 [2]。人 為行為觀察已經相當的成功用於研究親密關係 [3][4],因為夫妻的互動行為是影響親密關係程度的 重要因素之一。然而使用人為觀察行為的方式長年存在根本問題,一方面太消耗時間,另一 面也 主觀。 如果能透過電腦工程的方式來幫忙人為觀察將大大提升效率:即透過低層描述映射高層描 述來預測與分析人類行為 [5]。這項研究領域是一個新興的領域分。人類行為信號處理 (Behavioral Signal Processing, BSP)目的在幫助連接信號處理技術與行為分析的跨領域學科,建立在 傳統的信號 處理研究,如語音識別,面手部追蹤等等。相關顯著 BSP 研究已發產於以人為中心的提取音頻, 視頻信號,來分析高階人類行為...

متن کامل

基於深層遞迴類神經網路之多通道電視回聲消除系統(Multi-Channel Television Echo Cancellation based on Deep Recurrent Neural Networks)[In Chinese]

本論文研究智慧型電視操作情境下之電視節目回聲消除,希望能在電視節目持續播 放的情形下,仍能錄到說話者的清晰語音,並能應用在即時語音通訊與遠距語音辨 認人機介面上。本論文的回聲消除系統演算法是以遞迴類神經網路(Recurrent Neural Network,RNN)演算法,再配上多通道麥克風做回聲消除,達到人聲增強, 抑制噪音雜訊,提高語音清晰度。實驗分別實作單純電視節目聲、人聲混電視節目 聲兩種實驗,再導入前五秒無人聲預訓練,後五秒有人聲之電視節目回聲消除模式 實驗,實驗結果以回聲衰減量來判斷效能優劣。實驗顯示,以多通道深層遞迴類神 經網路效能優於其他方法,透過多聲道 RNN處理,的確能有效地濾除雜訊。 關鍵詞: 聲學回聲消除、適應性濾波器、類神經網路、遞迴類神經網路 The 2016 Conference on Computational Linguistics and Spee...

متن کامل

基於深層類神經網路之音訊事件偵測系統(Deep Neural Networks for Audio Event Detection)[In Chinese]

現實生活中常有許多聲音事件會一起發生,而聲音會重疊在一起,使得傳統(Gaussian Mixture Model ,GMM)方法很難準確辨認這些重疊的聲音事件。因此,本文提出以深層 類神經網絡(Deep Neural Network, DNN)來檢測這些互相干擾的聲音事件,並據此參加 Detection and Classification of Acoustic Scenes and Events 2016 (DCASE2016) 比賽, DCASE2016 評比提供的音訊資料,內有兩種場景,包括居家與戶外,共有 18 種含有背 景的聲音事件。實驗結果顯示使用 DNN 與傳統 GMM 比較,其場景偵測錯誤率可從 0.91 降至 0.86、F1 分數並從 23.4%提升到 26.8%。此外針對室內環境的音訊事件偵測,錯誤 率可從 1.06 降至 0.86,F1 分數並從 8.9%提升...

متن کامل

基於聽覺感知模型之類神經網路及其在語者識別上之應用 (Two-stage Attentional Auditory Model Inspired Neural Network and Its Application to Speaker Identification) [In Chinese]

根據神經生理學研究,耳朵會針對聲音的各個頻率進行分頻,並產生出聽覺頻譜,研究人 員根據專注聽覺現象和生物聽覺實驗,也發現了大腦聽覺皮質上神經作用的模式。於本論文中, 我們運用類神經網路,建構出一種模擬人類聽覺的類神經網路模型,並在語者識別這個應用上 進行討論,期望能成功連結神經生理學的知識與工程的技術。而我們所設計的模型,是利用兩 層不同維度的卷積神經網路(Convolutional Neural Network),分別模擬初期耳蝸階段及大腦皮質 階段,透過設計卷積核初始值,即耳蝸階段多組一維分頻濾波器和大腦皮質階段同時解析時頻 資訊的二維濾波器,以使模型能夠快速地達到收斂狀態。而透過模型訓練,根據目的與環境變 因的不同,模型會自動調整其中參數,使輸入資料映射至目標的型態。同時我們也針對所提出 的模型架構,進行了多種形態的比較,進而發現在給定初始值的狀況下,即使訓練不夠充分, 也能產...

متن کامل

完全基於類神經網路之語音合成系統初步研究 (A Preliminary Study on Fully Neural Network-based Speech Synthesis System) [In Chinese]

A Preliminary Study on Fully Neural Network-based Speech Synthesis System 廖書漢 SHU-HAN Liao ,蔡亞伯 YaBo Chai , 廖元甫 a Yuan-Fu Liao, a 國立台北科技大學電子工程系 [email protected], [email protected], [email protected] 摘要 傳統的語音合成使用先文字分析後語音合成的架構,但是這種兩階段的作法, 通常會有,若前級分析錯誤,就會影響後級合成,且無法挽救的問題。因此,在 本論文中我們希望嘗試把前後級,全部都改成以類神經網路實現,以便將來可以 直接合成一個大的端對端語音合成類神經網路。主要的想法是,直接以字元串為 輸入單位,並盡量用大量未標記語料,進行非監督式類神經網路訓練。我們的系 統包含四個子網路,分...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2016